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摘 要: [目的 /意义 ] 为 解决 社会 化 问答 社区 用 户 信息 需求 多 样 化 和 答案 宛 余 过 载 问题 ,提出 面向 用 户 个 性 化 需求 的 答案 
有 用 性 排序 方法 ,协助 用 户 高 效 筛选 和 获取 有 用 的 答案 知识 。[ 方法 过程] 首先 通过 文献 调研 和 专家 咨询 法 ,从 
答案 特征 、 回 答 者 特征 、 答 案 的 时 效 性 3 个 维度 构建 答案 有 用 性 评价 指标 体系 ;然后 ,从 语义 层面 融合 用 户 个 性 化 
需求 ,设计 融合 加 权 灰 色 关 联 分 析 法 和 Word2vec 的 答案 有 用 性 排序 方法 ,实现 面向 用 户 需 求 的 答案 排序 。[ 结 


果 / 结 论 ] 通 过 实验 结果 的 对 比分 析 发 现 与 基于 “点 玩 数 ”和 “回答 时 间 ” 等 传统 的 排序 方法 相 比 ,笔者 设计 的 答案 
有 用 性 排序 方法 的 用 户 满意 度 更 高 ,更 能 够 满足 用 户 的 个 性 化 知识 需求 。 
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近年 来 , 随 着 社会 化 问答 社区 的 发 展 和 推广 ,社会 
他 鹿 答 社区 已 逐渐 成 为 网 络 用 户 获取 高 质量 信息 或 专 
业 宽 识 的 重要 途径 ,并 且 开 始 向 更 高 质量 .专业 化 、 社 
站 的 方向 发 展 。 然 而 ,由 于 社会 化 问答 社区 的 问题 
和 疼 案 以 用 户 生成 为 主 ,用 户 信息 素养 参差 不 齐 ,社区 
监管 力度 不 足 等 原因 ,导致 网 络 问答 社区 的 用 户 生成 
内 锋 出 现 元 余 繁杂 、 质 量 良 医 不 齐 , 以 及 答案 与 用 户 需 
求 契 合 度 不 高 等 问题 ,更 是 没有 实现 面向 用 户 需求 的 个 
性 化 排序 。 因 此 ,如 何在 大 量 的 答案 文本 中 识别 出 匹配 
用 户 需求 .有 用 性 较 高 的 个 性 化 答案 成 为 社会 化 问答 社 
区 有 亟 需 解决 的 问题 。 该 问题 的 解决 对 于 提升 社会 化 问 
答 社区 服务 质量 和 用 户 粘 性 具有 极为 重要 的 意义 。 
目前 ,国内 外 针对 社会 化 问答 社区 答案 方面 的 研 
究 主要 包括 答案 推荐 .答案 质量 评价 所 .答案 排 
序 中 答案 融合 中 等 。 其 中 ,答案 推荐 是 针对 提问 者 而 
言 ,通过 一 些 推荐 算法 对 问题 的 候选 答案 作 自 动 排序 ， 
从 而 使 提问 者 能 更 快捷 地 选择 最 佳 答案 ,针对 答案 扒 


荐 方面 的 研究 主要 集中 于 采用 不 同 角度 和 方法 识别 最 
佳 答案 。 冯 文政 等 通过 双向 LSTM 、 词 向 量 ,2D 神经 网 
络 等 深度 学 习 模 型 与 TF-IDF ,LCS 等 传统 特征 结合 3 
筛选 最 佳 答案 “1 ; 谢 正文 等 则 是 将 思路 转变 为 通过 寻 
找 两 者 间 更 细 粒 度 的 语义 信息 筛选 最 优 答案 ;W. 
Ma 等 利用 长 短 时 记忆 网 络 和 卷 积 神经 网 络 提取 问答 
对 的 语义 特征 ,计算 问题 与 答案 之 间 的 匹配 度 , 从 而 实 
现 对 答案 的 推荐 ”; 。 而 笔者 提出 的 答案 有 用 性 排序 则 
是 针对 大 多 数 浏览 者 而 言 的 , 即 根据 用 户 个 人 所 感知 
的 答案 有 用 性 来 个 性 化 地 为 用 户 呈 现 答案 顺序 。 可 
见 , 答 案 推荐 与 答案 有 用 人 性 排序 存在 本 质 上 区 别 。 另 
外 ,社会 化 问答 社区 答案 有 用 人 性 与 答案 质量 既 有 重合 
之 处 又 有 所 不 同 。 答案 质量 ,通俗 来 讲 就 是 答案 的 好 
坏 ,好 坏 的 评判 一 般 是 基于 某 种 标准 ,那么 答案 质量 的 
评判 就 是 基于 答案 的 特征 人 为 给 定 标准 进行 评判 。 目 
前 ,针对 答案 质量 方面 的 研究 主要 集中 于 从 答案 特征 
角度 进行 答案 质量 评价 。J Jiwoon 等 中 首次 提出 采用 
非 文本 特征 即 答案 的 长 度 ,采纳 率 、 推 荐 次 数 及 页 面 点 
击 率 等 ,并 利用 最 大 炉 模型 成 功 进行 了 管 案 质 量 识别 ; 
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FE，Agichtein ”等 则 创新 融合 了 非 文本 特征 和 文本 特 
征 , 利 用 C4.5 决策 树 全 面 化 分 析 了 Yahool Answers 的 
答案 质量 。 然 而 答案 有 用 性 的 概念 则 是 来 自 于 信息 接 
受 模型 ,根据 信息 接受 模型 可 知 ,用 户 接收 外 界 信息 时 
将 信息 质量 和 信息 源 的 可 信 度 作为 信息 有 用 性 的 评判 
标准 5 。 因 此 ,社会 化 问答 社区 答案 有 用 性 是 指 用 户 
在 使 用 社会 化 问答 社区 检索 或 者 浏览 答案 时 根据 个 人 
信息 需求 所 感知 的 答案 价值 ,为 用 户 在 解决 问题 时 提 
供 帮 助 的 程度 。 由 此 可 知 , 管 案 有 用 性 排序 是 指 基于 
用 户 所 感知 到 的 答案 价值 和 有 用 程度 实现 的 面向 用 户 
需求 的 个 性 化 排序 结果 。 当 前 国内 外 学 者 针对 问答 社 
区 答案 有 用 性 研究 主要 从 以 下 两 个 方面 展开 ; 

(1) 在 线 问答 社区 答案 有 用 性 的 影响 因素 方面 研 
宕 一 许多 学 者 基于 不 同 的 理论 ,分 别 从 不 同 角度 验证 
了 和 餐 类 因素 对 答案 有 用 性 的 影响 。S. M，Mudambi 等 
三 马 进 网 站 为 研究 对 象 ,发 现在 线 评论 有 用 性 与 评 
讶 深度 评论 情感 极 性 以 及 商品 类 型 有 关 '" ; 谢 陈 博 
从 往 息 接受 理论 出 发 构建 答案 有 用 性 理论 模型 ,并 通 
过 守 证 研究 证 明 外 向 中 心 度 对 答案 的 有 用 性 影响 不 显 
着 内 向 中 心 度 对 答案 有 用 性 影响 显著 且 影响 程度 最 
龙 中 ; 曾 珍 妮 认 为 历史 提问 经 验 对 答案 有 用 性 没有 显 
着 勋 响 ,答案 长 度 ,情感 借 向 、 使 用 的 图 片 数量 都 对 答 
生 雁 用 性 存在 显著 的 正 向 影响 , 答 者 的 历史 回答 经 验 、 
发 表 文 章 的 经 验 . 内 向 网 络 中 心 度 、 外 向 网 络 中 心 度 这 
4 因素 都 对 用 户 的 感知 有 用 性 具有 正 向 作用 ; 王 
晨 指 出 回答 的 文本 长 度 .经 过 再 次 编辑 ,文本 专业 性 对 
于 加 答 有 用 性 有 显著 的 正 向 影响 ,回答 中 使 用 的 图 片 
数 蝇 和 情感 倾向 对 于 回答 有 用 性 的 影响 是 负 向 的 。 回 
答 用 户 的 历史 提问 数量 和 回答 数量 .用 户 取 得 知 乎 认 
证 身份 .用户 的 内 向 网 络 中 心 度 和 外 向 网 络 中 心 度 对 
于 回答 的 有 用 性 也 存在 正 向 影响 ,而 专栏 数量 的 影响 
是 负 向 的 o 。 

(2) 社 会 化 问答 社区 答案 排序 方法 方面 的 研究 。 
学 者 们 基于 不 同 的 理论 基础 ,采用 不 同 研究 方法 开展 
答案 排序 研究 。C， Shah 等 从 相关 人 性、 信息 量 ,完整 性 
等 维度 对 Yahoo! Answer 的 答案 进行 人 工 评分 ,探究 
答案 有 用 程度 ; 李 晨 等 提取 答案 的 文本 和 非 文本 特 
征 ,采用 人 工 标注 和 逻辑 回归 的 方法 对 数据 集 进行 质 
量 分 类 ;Z. M，Zhou 等 将 用 户 信息 融和 人 SVMRank、 
List-Net 排序 模型 ,排序 结果 更 有 优越 性 "” ;来 社 安 和 
蔡 中 民 从 语义 相似 度 角度 出 发 ,计算 问题 和 答案 的 相 
似 度 和 权 值 并 加 以 调整 ,从 而 选 出 最 佳 答案 "9 ; 易 明 
和 张 婷 婷 认 为 对 答案 质量 指标 体系 利用 K-Medois 育 


类 算法 和 粗糙 集 理 论 修正 后 ,运用 加 权 灰 色 关 联 分 析 
法 计算 灰色 关联 度 产 生 的 排序 结果 的 用 户 满 意 度 更 
高 后 ; 刘 瑜 和 圳 健 对 TEM 模型 (Tree-enhanced Embed- 
ding Model ) 加 以 改进 ,分 析 用 户 行为 ,形成 新 的 答案 排 
序 和 自动 筛选 模型 ;L. Yang 等 基于 TEM 模型 结合 
本 内 容 模型 和 链接 结构 分 析 进 行 建 模 ,通过 CQARank 
对 Stack Overflow 进行 实证 研究 ,计算 出 答案 的 主题 相 
似 性 和 用 户 权威 性 ,进而 产生 排序 结果 。 

通过 梳理 已 有 研究 发 现 ,问答 社区 答案 质量 或 有 
日 性 方面 研究 受到 国内 外 学 者 们 的 关注 ,产生 了 一 系 
1 的 研究 成 果 。 利 用 不 同 理论 .多 种 角度 分 析 答 案 有 
用 性 的 影响 因素 和 各 指标 的 影响 结果 ,并 积极 改进 排 
序 方法 ,为 本 文 的 研究 奠定 了 一 定 的 理论 基础 和 参考 
依据 。 然 而 ,已 有 研究 主要 是 为 了 识别 并 评判 答案 质 
量 , 少 有 将 答案 有 用 性 和 答案 排序 结合 进行 研究 ,更 没 
有 深入 到 答案 的 语义 层面 考虑 用 户 的 个 性 化 需求 。 用 
户 通 过 检索 或 者 浏览 等 方式 获取 有 用 答案 的 过 程 有 一 
定 的 时 间 妨 耐 度 ,更 期 待 能 够 快速 搜寻 到 匹配 自身 需 
求 答案 ,趋向 于 消耗 最 低 的 成 本 获得 最 佳 答案 。 基 于 
此 ,笔者 借鉴 已 有 相关 研究 ,深入 答案 语义 层面 提出 一 
种 面向 用 户 需 求 的 答案 有 用 性 排序 方法 。 首 先 从 答案 
特征 回答 者 特征 和 答案 时 效 性 3 个 维度 筛选 出 影响 
社会 化 问答 社区 答案 有 用 性 关键 性 指标 并 分 别 对 其 进 
行 量化 ;然后 结合 使 用 炉 权 法 .加权 灰色 关联 分 析 法 、 
Word2vec 等 方法 提出 了 社会 化 问答 社区 答案 有 用 性 
排序 的 新 方法 。 最 后 ,选取 携程 旅游 网 问答 社区 的 杭 
州 话题 为 研究 对 象 , 验 证 笔者 提出 的 答案 有 用 性 排序 
方法 的 有 效 性 和 科学 性 。 


2 社会 化 问答 社区 答案 有 用 性 评价 指标 
体系 构建 


2.1 关键 评价 指标 的 选取 与 量化 

本 研究 基于 笔者 已 发 表 论文 《社会 化 问答 社区 用 
户 生成 答案 质量 自动 化 评价 研究 - 以 “ 知 平 ” 为 
例 》 ,认为 用 户 在 评价 答案 有 用 性 过 程 中 受到 多 方 
面 因素 的 影响 。 一 般 情 况 下 需要 考虑 答案 文本 内 容 质 
量 回答 者 质量 .时 效 性 等 维度 因素 ,大 部 分 研究 也 证 
实 了 这 3 类 特征 对 答案 有 用 性 产生 影响 。 易 明 等 通过 
11 种 学 习 算法 比较 得 出 点 赞 数 、 粉 丝 数 对 于 答案 质量 
的 影响 程度 最 大 ; 施 国 良 利 用 内 容 分 析 法 和 回归 模 
型 检验 发 现 答题 者 的 影响 力 ,答案 及 时 性 .答案 长 度 对 
于 答案 认可 都 具有 正 向 影响 呈 : ; 翟 倩 认为 产品 的 属性 


be 


过 
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特征 词 和 情感 表达 能 够 提高 用 户 浏览 时 对 在 线 评论 的 
可 信和 度 和 感知 有 用 性 。 同 时 ,笔者 又 查阅 了 已 有 研 
究 文 献 以 及 向 有 关 专 家 咨询 ,从 答案 内 容 特征 .回答 者 


特征 和 答案 时 效 性 3 个 角度 确立 了 答案 有 用 性 评价 指 
标 。 具 体 指 标 及 其 量化 方法 ,如 表 1 所 示 : 


表 1 社会 化 问答 社区 答案 有 用 性 排序 指标 与 量化 方法 


指标 类 型 。 ”指标 名 称 指标 含义 及 作 上 指标 量化 方法 主要 文献 来 源 
答案 内 容 特征 ”文本 长 度 “答案 文本 中 所 包含 的 字符 数量 。 答 案 的 文本 长 度 与 ”答案 文本 的 有 效 字符 数量 总 数 ,可 由 数据 采集 获 。 [25][13][26] 
用 户 的 感知 有 用 性 之 间 存 在 着 倒 U 型 关系 。 答 案 文 ”得 并 通过 Excel 函数 计算 [16] 
本 中 的 字符 在 一 定 字数 内 对 于 用 户 所 感知 的 有 用 性 
是 更 高 的 
四 片 数量 “答案 中 所 包含 的 有 效 图 片 数量 。 答 案 中 添加 图 片 可 ”答案 中 有 效 图 片 数量 总 数 ,可 由 数据 采集 获得 [27][28] [9] 
以 丰富 答案 内 容 ,增加 用 户 对 答案 的 认同 感 ,提高 徐 [29] 
案 的 可 阅读 性 
答案 评论 。 答案 下 方 被 评论 数量 。 被 评论 次 数 越 多 的 答案 ,其 热 ”答案 下 方 被 评论 的 总 数 ,可 由 数据 采集 获得 [9][5] 
度 越 高 。 用 户 可 以 在 评论 中 获得 除 答案 自身 外 的 额 
外 或 补充 知识 
属性 描述 词 答案 中 关于 问题 主体 属性 的 描述 词语 。 属 性 描述 词 ”答案 中 的 关于 问题 的 属性 特征 词 的 总 数 。 首 先 [30][31] 
直接 体现 答案 与 问题 的 匹配 程度 ,一 般 来 说 ,属性 描 ”的 取 某 目 的 地 下 的 所 有 问答 对 并 对 其 进 切 分 词 
一 述 词 越 多 ,答案 匹配 度 越 高 和 去 停 用 词 ,经 过 人 工 筛选 判断 形成 语料库 ;将 
> 已 经 预 处 理 过 的 答案 与 语料库 进行 一 一 对 比 并 
S 累积 比 对 成 功 次 数 记 做 属性 特征 词 总 数 
= 情感 分 析 。 ”答案 中 表达 正 向 情感 倾向 的 值 。 答 案 的 情感 分 析 能 答案 中 的 情感 分 析 值 。 通 过 python 的 snownlp [32][33][34] 
够 向 用 户 传达 答案 中 的 情感 偏好 ,影响 用 户 对 答案 有 ” 库 计 算 情感 分 析 值 [35] 
三 用 性 的 感知 
答案 获 赞 。” 管 案 所 获得 点 先 数 。 答 案 的 点 赞 数 越 高 ,用 户 对 答案 ”答案 所 获 的 点 赞 数量 总 数 ,可 由 数据 采集 获得 [36][28] 
的 认同 度 越 高 
it 回答 者 权威 ”回答 者 的 平台 影响 力 。 经 调研 发 现 ,回答 者 的 粉丝 数 回答 者 的 粉丝 数量 ,可 由 数据 采集 获得 [14][15][12] 
ey 量 越 多 ,其 平台 影响 力 越 大 ,其 发 表 的 答案 质量 越 高 
的 可 能 性 越 大 
2 回答 者 获 赞 ” 回答 者 的 总 体 获 赞 数 。 一 方面 回答 者 的 总 体 获 先 数 ” 回答 者 所 有 答案 获 赞 总 数 ,可 由 数据 采集 获得 。 [37][12] 
二 能 表达 出 回答 者 在 某 些 问题 或 某 些 领域 内 的 专业 程 
> 度 ; 另 一 方面 可 以 体现 回答 者 对 于 问答 社区 的 知识 贡 
= 献 程度 
Ht 时 效 性 ”答案 发 布 时 间 与 答案 被 阅读 的 时 间 差 值 。 问 题 提出 ”答案 发 布 时 间 与 答案 被 阅读 的 时 间 差 值 ,以 天 为 ” [38][39][40] 
时间 与 答案 发 布 时 间 的 差 值 越 大 ,无 论 是 对 于 提问 者 ”计数 单位 ,可 由 数据 采集 获得 并 通过 Excel 函数 


1 


户 的 有 用 程度 越 低 


还 是 后 期 的 浏览 者 来 说 ,答案 越 不 及 时 ,答案 对 于 用 ”计算 


2. 人 基于 入 权 法 的 答案 有 用 性 指标 权重 赋值 

答案 有 用 性 指标 的 权重 分 配 与 赋值 对 后 续 答案 有 
用 性 的 排序 起 着 至 关 重要 的 作用 。 由 于 权重 反映 的 是 
指标 在 整个 答案 的 有 用 性 排序 指标 体系 中 的 重要 性 ， 
关系 到 指标 对 于 排序 结果 的 贡献 程度 ,必须 科学 合理 
地 根据 每 个 指标 的 重要 程度 赋予 不 同 的 权重 。 焙 权 法 
作为 典型 的 指标 权重 赋 权 方法 ,具有 广泛 的 应 用 。 炳 
权 法 认为 某 项 指标 的 炉 值 越 大 ,其 信息 量 越 大 ,内 容 越 

富 ,该 指标 对 用 户 的 有 用 性 越 强 ,其 所 占 权重 也 应 较 
大 "1 。 炳 值 可 以 表示 信息 的 有 用 程度 , 当 信息 的 炳 值 
达到 最 大 , 即 业 值 为 零 时 ,意味 着 信息 的 有 用 性 也 为 
零 。 炳 权 法 根据 各 指标 所 提供 的 信息 量 来 确定 指标 的 
具体 权重 ,是 一 种 相对 客观 的 赋 权 法 。 学 者 们 已 经 将 
米 权 法 广泛 应 用 于 指标 权重 赋值 。 例 如 : 李 帅 等 利用 
粹 权 法 和 层次 分 析 法 为 宁夏 城市 人 居 环 境 质 量 评价 确 


定 指标 权重 ; 信 桂 新 等 将 炉 权 法 运用 于 高 标准 的 基 
本 农田 建设 后 效应 评价 体系 的 构建 中 ”  。 灶 权 法 在 
各 领域 的 指标 赋值 方面 的 应 用 十 分 广泛 ,也 得 到 了 大 
家 的 一 致 认可 。 炉 权 法 的 优势 在 于 一 方面 相 较 于 其 他 
指标 赋 权 方法 对 于 有 用 信息 的 筛选 更 加 准确 ; 另 一 方 
面 粹 权 法 能 够 排除 传统 赋 权 法 由 于 人 为 主观 性 太 强 对 
实验 结果 产生 的 负面 影响 ,增加 权重 的 科学 性 和 可 信 
性 。 因 此 ,笔者 采用 炉 权 法 对 管 案 有 用 性 指标 进行 赋 
权 , 根 据 实际 方法 产生 的 数据 结果 确定 答案 有 用 性 指 
标的 权重 。 根 据 炉 权 法 的 内 在 原理 , 粹 权 法 的 基本 步 
骤 如 下 ”| 

(1) 指 标 数据 标准 化 。 为 了 防止 各 指标 量 纲 不 统 
一 造成 实验 误差 ,需要 先 将 各 指标 的 原始 数据 进行 标 
准 化 处 理 。 假 设 有 下 条 数据 ,每 条 数据 有 X 项 评价 指 
标 ,标准 化 处 理 后 的 指标 为 Y。 具 体 公 式 如 下 : 
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Xj — min( x;) 


Vy max( x,) — min(x,) 公式 (1) 


(2) 计 算 指 标的 粹 值 。 根 据 信息 论 中 信息 炉 的 定 

义 ,一 条 数据 的 信息 粹 的 计算 公式 如 下 所 示 : 
E= -In(n) Ep, ee 
公式 (2) 

其 中 ,py =yy yy, 如 果 p =0, 则 定义 lim ps In(p) 
=0’s 

(3) 确 定 各 指标 的 权重 。 根 据 信息 粹 的 计算 公 
式 , 计 算出 各 个 指标 的 信息 信 为 Bi,E,,E;,… ,EE,。 接 
着 通过 信息 炉 计 算 各 指标 的 权重 WW ,并 且 0<W<1， 
2 W,=1。 


~ 


Ward2vec 算法 的 有 用 性 排序 方法 过 程 
3 区 相关 技术 方法 介绍 


| Word2vec 算法 

CWord2vec 词 向 量 模 型 是 由 Tomas Mikolov 首先 提 
主要 思想 是 利用 空间 向 量 来 表示 单词 。Word2vec 
寺 训 练 文本 来 将 其 转化 为 维 向 量 运 算 , 利 用 癌 
间 的 相似 性 来 表示 文本 在 语义 上 的 相似 度 。 词 
终 过 训练 在 空间 位 置 中 转化 成 点 ,每 个 点 代表 一 个 
单词， 通过 测量 空间 中 的 词 向 量 的 距离 得 到 词语 之 间 
的 得 似 性 。 因 此 ,笔者 采用 Word2vec 计算 问答 对 的 语 
义 笨 似 度 。 

Word2vec 包含 CBOW 和 Skip-gram 两 个 模型 。 
CBOW 是 通过 上 下 文 来 预测 当前 词语 的 概率 ; Skip- 
gram 是 通过 当前 词语 来 预测 上 下 文 词语 的 概率 。 两 种 
训练 模型 虽然 方向 相反 ,但 原理 相似 而 且 本 质 上 都 是 
以 Huffman 树 作为 基础 ,构建 一 个 多 层 神 经 网 络 ,在 给 
定 文本 中 获取 对 应 的 输入 与 输出 ,通过 不 断 地 训练 与 
修改 参数 ,最 后 获得 词 向 量 。 通 过 查阅 文献 得 知 Skip- 
gram 模型 在 处 理 专 业 领 域 文 本 方面 更 加 优越 ,因此 笔 
者 选择 Skip-gram 模型 训练 词 向 量 。 具 体 工作 原理 的 
模型 架构 见 图 1 。 

3.1.2 加权 灰色 关联 分 析 法 
灰色 关联 分 析 法 “-“ 来 自 于 我 国学 者 邓 聚 龙 在 


minmin | (xo( k) —x(k) +p: maxmax |xo (k) —x,(k)| | 


输入 层 投影 层 输出 层 
WH-2) 

| WO 一 一 WO | Woy 
WU+l) 
WU+2) 


1 skip-gram 模型 结构 


1982 年 提出 的 灰色 系统 理论 ,其 基本 思想 是 利用 数学 
的 方法 表示 各 因素 的 数据 ,根据 实验 数据 和 参考 数据 
曲线 几何 形状 的 拟 合 程 度 来 判断 灰色 关联 程度 。 一 般 
地 ,在 进行 灰色 关联 分 析 时 ,通常 采用 各 时 点 的 灰色 关 
联系 数 的 算术 平均 数 作 为 灰色 关联 度 , 这 样 没 有 考虑 
比较 数列 与 参考 数列 里 各 元 素 的 信息 烂 值 ,会 造成 一 
定 程度 上 的 信息 损失 ,不 能 正确 反映 实验 数据 与 参考 
序列 的 关系 。 因 此 ,笔者 运用 基于 烂 权 法 优化 的 加 权 
灰色 关联 分 析 法 (Weighted Grey Relational Analysis ， 
WGRA ) 来 计算 答案 的 加 权 灰 色 关 联 度 。 加 权 灰 色 关 
联 分 析 法 的 基本 步骤 如 下 : 

(1) 确 定 分 析 数 列 , 即 分 别 确定 参考 数列 和 比较 
数列 。 将 各 条 答案 指标 量化 后 的 数据 构成 分 析 数 列 ， 
设 分 析 数 列 为 X(2) = |X(kE)1k=1,2,…,n| ,i=1,2， 
…,m,m, 是 每 条 问题 下 管 案 的 具体 条 数 。 参 考 数 列 作 
为 比较 的 标准 ,应 该 选取 各 指标 的 最 优 值 , 设 参 考 数 列 
为 Y= 1Y(k)Ik=1,2,.…,n|, 

(2) 无 量 纲 化 处 理 数据 ,因为 各 指标 的 初始 量 纲 
和 数量 级 可 能 有 所 不 同 ,为 了 准确 地 进行 分 析 比 较 , 将 
数据 进行 初 值 化 或 均值 化 处 理 。 

(3) 计 算 关 联系 数 , 即 根据 公式 分 别 计算 每 个 比 
较 数 列 与 参考 数列 对 应 元 素 的 关联 系数 。 

首先 ,计算 比较 序列 与 参考 序列 对 应 元 素 的 绝对 
差 值 ,计算 公式 如 下 : 

lx (Ek) -zl (k=1,2,…,m;i=1,2,…,n;n 为 评 


价 对 象 个 数 ) 公式 (4) 
其 次 ,计算 minn 和 maxn ,如 公式 (5)(6) 所 示 : 

minn =minmlxo(k) -xi(£)| 公式 (5) 

maxn =maxmlxo(k) -x(k)| 公式 (6) 


接着 ,根据 公式 (7) 计 算 关 联系 数 &,() 。 


E(k) = [xo(k) —x(k) 1 tp maxmaxlxo(k) — x(k) | 


公式 (7) 
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在 式 (7) 中 ,p 为 分 辩 系数 ,在 (0,1) 内 取 值 , 若 p 
越 小 ,关联 系数 间 差异 越 大 ,区 分 能 力 越 强 。 通 常 p 取 
0.5。 

(4) 计 算 加 权 关联 度 , 即 计算 关联 系数 在 各 个 时 
刻 的 平均 值 ,用 来 表示 比较 数列 与 参考 数列 的 具体 关 
联 程度 。 笔 者 运用 焙 权 法 计算 出 的 指标 权重 W; 优化 
灰色 关联 分 析 法 形成 加 权 灰 色 关 联 度 方法 ,其 计算 公 
式 (8) 如 下 : 

yi = > yi(k) W,,k=1,2,.…,n 公式 (8) 
3.2 融合 Word2vec 和 灰色 关联 分 析 的 答案 有 用 性 
排序 方法 步 又 

社会 化 问答 社区 用 户 的 需求 和 其 他 环境 下 用 户 需 
求 有 所 不 同 ,用 户 在 其 个 人 知识 需求 的 原动力 驱动 下 
净 会 产生 一 系列 的 知识 获取 行为 ,其 中 用 户 通过 问答 
祛 罗 进行 提问 、 回 答 或 浏览 相关 问题 及 答案 是 重要 的 


发 者 可 从 中 挖掘 出 用 户 需 求 ”。 值 得 一 提 的 是 
Word2vec 不 仅 可 以 将 文本 数据 转化 为 便于 处 理 的 数 
值 型 数据 ,而 且 擅 长 深入 语义 层面 挖掘 用 户 潜在 需求 
言 息 。 至 于 加 权 灰 色 关 联 分 析 法 ,一 方面 结合 烂 权 法 
根据 信息 的 丰富 程度 为 其 赋 权 , 男 一 方面 根据 灰色 关 
联 分 析 法 的 原理 识别 出 每 条 答案 与 标准 答案 的 接近 程 
度 。 以 往 研究 往往 聚焦 于 排序 方法 的 创新 ,忽略 了 用 
户 需求 这 一 重要 因素 。 综 上 所 述 ,笔者 选择 融合 
WGRA 和 Word2vec 算法 ,综合 考虑 社会 化 问答 社区 答 
案 的 特点 以 及 出 于 体现 大 多 数 用 户 的 多 样 化 需求 。 
融合 WGRA 与 Word2vec 算法 的 答案 有 用 性 排序 
方法 主要 包括 3 个 部 分 :首先 构建 答案 有 用 性 指标 体 
系 ;然后 根据 炉 权 法 确定 各 指标 的 具体 权重 ;然后 分 别 
根据 灰色 关联 分 析 法 结合 权重 和 Word2vec 算法 计算 
出 答案 的 加 权 灰 色 关 联 度 和 问答 对 ,最 后 实现 社会 化 


信和 加 获取 途径 之 一 。 因 此 ,社会 化 问答 社区 里 的 问 
知 王 不 仅 可 为 潜在 用 户 提供 决策 参考 ,更 重要 的 是 开 
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问答 社区 的 答案 排序 并 进行 实验 结果 的 对 比分 析 。 答 
案 有 用 性 排序 的 具体 实现 步 又 ,如 图 2 所 示 : 


( 数据 采集 ) 
数据 预 处 理 和 
归 一 化 


RA : 选取 训练 
确定 分 析 数 列 | 语料库 
E Skip-gram 模 型 
Ri | 


利用 余弦 向 量 
计算 文本 相似 
| 度 


获得 排序 结果 


排序 方法 


计算 关联 度 


图 2 社会 化 问答 社区 答案 有 用 性 排序 方法 流程 


根据 用 户 的 信息 需求 状态 之 间 的 关系 可 知 , 客 观 
的 信息 需求 通过 认 知 内 化 成 意识 到 的 信息 需求 进而 通 


过 提问 外 化 成 表达 出 的 信息 需求 ”。 因 此 ,笔者 以 用 
会 通过 提出 的 问题 来 充分 而 准确 地 表达 其 信息 需求 
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为 出 发 点 进行 算法 流程 设计 ,具体 如 下 : 

Stepl :数据 预 处 理 和 标准 化 。 将 采集 到 的 数据 通 
过 python 自 编 程序 进行 切 词 .分词 ,删除 无 用 信息 , 进 
行 标准 化 处 理 。 

Step2 :将 各 项 指标 按照 具体 量化 方法 转化 成 可 处 
理 的 数值 数据 ,接着 通过 粹 权 法 计算 指标 的 具体 权重 
栈 , ,进而 结合 灰色 关联 分 析 法 计算 加 权 灰 色 关 联 度 yi。 

Step3 :输入 训练 语 料 集合 了 ,通过 Word2vec 训练 
语料库 模型 ,输出 语 料 模型 ,根据 W 获得 词 向 量 


4 实证 研究 


4.1 数据 采集 与 预 处 理 

携程 旅游 网 经 过 10 年 的 发 展 已 经 成 为 功能 健全 
的 专业 性 旅游 服务 类 网 站 。 携 程 问答 社区 以 用 户 生 成 
答案 为 主 ,具有 问题 丰富 ,答案 质量 高 ,用 户 群 体 多 元 
等 特点 。 因 此 ,选取 携程 旅游 网 问答 社区 作为 研究 对 
象 ,验证 笔者 提出 的 答案 排序 方法 的 可 行 性 和 有 用 性 。 
携程 问答 作为 旅游 类 的 社会 化 问答 社区 的 特殊 性 在 


vec; ,对 词 向 量 取 平 均值 后 利用 余弦 相似 度 计算 问题 与 
答案 的 相似 度 ,具体 公式 为 : 
S(A,B) =cos(0) = 


| 痛 | DT 公式 (9) 
一 在 公式 (9) 中 ,4 为 问题 文本 词 向 量 的 均值 ,B 为 
答案 文本 词 向 量 的 均值 。 每 个 答案 文本 的 向 量 依次 与 
洁 古 文本 的 向 量 进 行 计算 得 到 该 问题 与 每 个 答案 的 语 
相似 度 S(4,B) 。 

全 son4 :计算 加 权 融 合 的 答案 有 用 性 排序 数值 P。 
笔者 将 己 定 义 为 语义 相似 度 与 加 权 灰色 关联 度 的 和 。 
涯 地 避免 某 一 方 数值 过 大 或 过 小 引起 结果 偏差 ,因此 
焰 名 改 为 语义 相似 度 与 加 权 灰色 关联 度 的 加 权 求 和 。 
车 天 得 较 合适 的 权重 值 ,笔者 首先 将 权重 值 都 设置 为 
0 全 缮 获取 排序 结果 ,发 现 由 于 y 较 大 ,5 较 小 导致 的 排 
序 中 果 不 理 想 。 笔 者 以 0. 5 为 基础 进行 权重 值 的 调整 
称 优 化 ,经 过 多 次 试验 和 调 参 后 ,最 终 发 现 数值 偏差 对 
试 咕 结果 的 影响 最 小 的 权重 设置 ,计算 公式 如 下 所 示 : 


于 ,用 户 提 出 的 问题 与 生成 的 答案 往往 是 与 茶 个 目的 
地 有 关 。 然 而 由 于 社会 化 问答 社区 存在 一 定 的 社交 属 
性 ,每 个 目的 地 下 的 问答 对 都 有 可 能 存在 无 效 数 据 。 
因此 ,为 了 能 够 最 大 限度 地 获取 连贯 有 效 的 数据 集 , 规 
避 菏 些 扳 立 数据 造成 答案 有 用 性 计算 的 偶 移 ,也 为 了 
保证 用 户 群 体 的 多 样 性 ,笔者 选择 以 多 个 目的 地 为 检 
索 词 ,随机 采集 每 个 目的 地 下 一 个 问题 及 问题 下 的 所 
有 答案 进行 实证 研究 。 首 先 利 用 八 爪 鱼 数据 采集 软件 
以 “杭州 上海. 青岛 .青海 武汉、 长 沙 、 三 亚 ” 为 目的 
地 检索 词 随机 爬 取 页 面 下 的 一 个 问题 的 问答 对 文本 内 
容 .回答 者 粉丝 数量 问题 和 答案 的 发 布 时间 用户 的 
点 赞 数量 ,答案 被 回复 的 数量 ,答案 的 排列 顺序 。 形 成 
初始 数据 集 总 计 924 条 ,由 于 存在 用 户 注 销 账户 用户 
重复 回答 和 答案 与 问题 无 关 等 现象 ,导致 出 现 无 法 获 
取 相 关 数 据 数据 元 余 和 数据 无 效 等 问题 ,因此 删除 无 
效 数据 后 剩余 703 条 有 效 数据 。 问 题 和 答案 数量 的 相 
关 实 验 数据 如 表 2 所 示 : 


P=0.25y, +0.75S(A,B) 公式 (10) 
一 ee 
G 表 2， 问题 和 答案 数量 的 相关 实验 数据 
目的 地 答案 数量 
长 沙 作为 小 吃 之 都 ,长 沙 最 地 道 的 小 吃 在 哪里 ? 263 
杭州 最 近 计 划 去 杭州 踏青 ,初步 定 在 4 月 初 的 一 个 周末 , 周 六 早上 动车 到 杭州 ,然后 一 天 游览 西湖 周边 。 我 的 规划 是 从 断 桥 开始 一 路 113 
沿 白 堤 步行 ,然后 在 苏 坦 北岸 的 曲 院 风 荷 游览 后 走 到 杨 公 坤 ,一 路 游览 郭 庄 到 茅 家 塌 , 再 坐 公交 到 龙井 ,午后 再 从 龙井 出 发 坐 公 
交 到 苏 堤 南边 的 花 港 观 鱼 ,看 看 雷 峰 塔 和 静 寺 ,不 知 这 样 的 规划 是 否 合理 呢 ? 或 者 各 位 还 有 没有 更 好 的 建议 ?杭州 西湖 一 天 这 
样 游 合理 吗 ? 
青岛 我 现 居 青 岛 感觉 青岛 如 果 没 有 海 也 只 是 个 一 般 的 城市 但 我 又 好 齐 三 亚 这 个 城市 是 怎么 样 的 有 没有 能 给 我 比较 比较 这 俩 ? 三 50 
亚 与 青岛 相 比 哪个 旅游 价值 更 高 ? 
青海 求 西宁 ,青海 湖 , 茶 卡 盐湖 三 日 游 路 线 4 
上 海 下 月 准备 带 孩 子 去 上 海 迪斯尼 乐园 , 求 大 家 推荐 一 下 住宿 的 酒店 和 攻略 62 
三 亚 三 亚都 有 那些 值得 去 的 景点 ? m3 
武汉 我 两 天 后 要 去 武汉 ,武汉 有 哪些 好 玩 的 地 方 ? 57 


4.2 有 用 性 排序 方法 应 用 

实验 数据 经 过 python3.6 预 处 理 后 ,分 别 按照 前 文 
的 方法 进行 指标 的 量化 处 理 , 通 过 炉 权 法 计算 后 获得 
问答 社区 的 有 用 性 指标 权重 分 布 结果 见 表 3。 

随机 选取 以 “杭州 "为 目的 地 检索 的 随机 问题 “最 


近 计划 去 杭州 踏青 ,初步 定 在 4 月初 的 一 个 周末 , 周 六 
早上 动车 到 杭州 ,然后 一 天 游览 西湖 周边 。 我 的 规划 
是 从 断 桥 开 始 一 路 沿 白 堤 步行 ,然后 在 苏 坤 北岸 的 曲 
院 风 答 游 览 后 走 到 杨 公 坦 ,一 路 游览 郭 庄 到 茅 家 塌 , 再 
坐 公交 到 龙井 , 午后 再 从 龙井 出 发 坐 公交 到 苏 坦 南 边 
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表 3 ”社会 化 问答 社区 答案 有 用 性 排序 指标 权重 矩阵 


问题 主题 ”答案 获 疆 答案 回复 图 片 数量 回答 者 权威 ”答案 时 效 性 文本 长 度 回答 者 获 赞 ”情感 分 析 值 。 属性 特征 词 
长 沙 0.056 967 0.148 407 0.113 295 0. 139 029 0. 147 694 0. 022 566 0. 135 484 0.011 612 0.224 946 
杭州 0.077 678 0. 158 948 0.214 337 0.177 914 0.047 115 0.055 946 0. 149 884 0.012 807 0. 105 373 
丽江 0. 102 885 0. 164 675 0. 142 781 0. 155 602 0. 125 624 0.074 170 0. 126 566 0. 046 448 0. 061 250 
青岛 0.058 879 0.240 916 0.268 893 0. 158 590 0. 036 408 0. 106 947 0.091 131 0.008 152 0.030 085 
青海 0.091 122 0.073 482 0. 176 759 0.244 718 0.110 197 0. 062 965 0. 139 360 0.023 406 0.077 992 
上 海 0.053 521 0.202 192 0. 190 507 0.233 550 0. 129 677 0.049 410 0.083 995 0.013 627 0.043 522 
三 亚 0.055 393 0.138 173 0.110 967 0. 183 749 0.327 965 0.083 767 0.063 125 0.005 715 0.031 145 
武汉 0.083 583 0.175 209 0.152 065 0.238 506 .095 373 0.054 060 0.125 770 0. 027 465 0.047 969 


的 花 港 观 鱼 ,看 看 雷 峰 塔 和 静 寺 ,不 知 这 样 的 规划 是 否 
合理 呢 ? 或 者 各 位 还 有 没有 更 好 的 建议 ?杭州 西湖 一 
天 这 样 游 合 理 吗 ?” 下 的 答案 为 例 ,运用 加 权 灰 色 关 联 
分 析 法 融合 Word2vec 方法 进行 答案 有 用 性 排序 。 由 
于 受到 篇 幅 限 制 , 仅 选 取 第 4 个 答案 文本 进行 演示 。 

本 (1) 各 答案 的 灰色 关联 度 值 计算 。 首 先 ,选取 参 


考 扁 列 和 比较 序列 。 参 考 序列 的 各 指标 采用 前 述 表 1 


和 区 标的 量化 方法 进行 量化 。 例 如 :第 4 条 答案 的 各 
项 标 被 量化 后 为 172,6,5 ,1084 ,2,464,119,1,13 Fo 
选 扣 每 个 问题 下 答案 的 各 个 指标 的 最 优 指标 数值 作为 
参 移 序列 ,以 杭州 为 主题 的 答案 的 参考 序列 为 
了 = |0. 679856 ,0. 015108 ,0. 010791 ,2. 153957, 
0 .0001583 ,1 .001439 ,5.082734 ,0. 002158 ,0. 032374 | 
OO 其 次 ,选择 均值 化 为 指标 进行 无 量 纲 化 处 理 后 的 
为 ; 
;xX = |0. 366931 , 0. 030578 ,0. 025481,5. 524349 ， 
0193 ,2. 364666 ,0. 606455 | 
三 步 , 利 用 公式 计算 各 个 点 之 间 的 关联 系数 2; 
©7 = |0. 882035 ,0. 999566 ,0. 997083 , 0. 626452 ， 
0.694172 ,0.961422 ,0.706199| 
最 后 ,根据 公式 (8) 求 出 杭州 为 主题 的 问题 下 第 4 
条 答案 与 参考 序列 了 的 加 权 灰 色 关 联 度 y; =0.097 451。 
(2) 答 案 与 问题 的 语义 相似 度 计算 。 由 于 携程 问 
答 社区 中 用 户 生成 的 答案 是 由 大 量 非 结构 化 的 口语 、 
网 络 语言 构成 ,所 以 ,笔者 选取 最 全 面 的 中 文 维基 百科 
的 语料库 ,利用 python3.6 进行 分 词 等 处 理 后 ,经 过 多 
次 实验 ,最 终 选 择 词 向 量 的 训练 维度 为 256 ,窗口 为 5， 
进行 word2vec 模型 训练 。 笔 者 选择 skip-gram 模型 训 
练 语 料 并 将 所 有 数据 转化 成 词 向 量 , 然 后 对 词 向 量 取 
平均 值 后 ,利用 向 量 的 余弦 夹 角 求 出 问题 与 答案 的 相 
似 度 。 同 样 以 第 4 个 答案 作为 演示 对 象 。 经 过 分 词 、 
去 停 用 词 处 理 后 ,问题 转化 为 词 列表 [ “计划 ”,“ 杭 
州 " ,西湖 , 断 桥 "，' 白 堤 ,' 苏 堤 '， 曲 院 荷 风 ”， 
“ 杨 公 堤 ',“ 郭 庄 ' , “ 茅 家 坊 ', “龙井 ',“ 花 港 观 色 ”， 


“ 雷 峰 塔 '", “更 寺 ” , “规划 ” ] ,答案 按照 同样 步骤 转化 
为 词 列表 [' 雷 峰 塔 ",“ 苏 堤 ',“ 花 港 观 鱼 ”, “北山 
路 " ,“ 孤 山路 " ， 白 堤 " ， 断 桥 ”“， 毛 家 塌 ” ， 龙 井 ” ， 
“ 灶 丰 年 间 ” “和 弄堂 里 “湖滨 商业 街 '“ 热 门 ", “和 餐 
厅 ” ] ;运用 Word2vec 模型 将 问题 和 答案 转化 成 词 向 
量 , 问 题 4=[v,v,,… ,v1s] ,答案 B=[v,v,,… ,v4]， 
然后 分 别 取 问 题 与 答案 的 词 向 量 的 平均 值 ww ,ww ,利用 
向 量 的 余弦 夹 角 值 计算 出 问题 与 答案 的 语义 相似 度 。 
根据 公式 (9 ) 求 得 问题 A 与 答案 B 的 语义 相似 度 5 
(A,B) =0. 813 627。 

最 后 ,将 答案 的 加 权 灰 色 关 联 度 与 问答 对 之 间 的 
语义 相似 度 融 合 , 根 据 公 式 (10) 获 得 以 杭州 为 主题 的 
问题 下 第 4 条 答案 的 最 终 答案 有 用 性 排序 数值 P 为 
0.270 854 225 。 

由 于 文章 篇 幅 有 限 , 选 取 以 杭州 为 主题 的 问题 及 
前 5 条 答案 进行 对 比分 析 。 有 具体 分 析 内 容 见 表 4。 

4.3 结果 分 析 与 对 比 

人 工 排序 方法 可 以 最 直观 地 体现 用 户 需 求 , 因 此 
被 认为 是 最 佳 排 序 结 果 "" 。 为 了 验证 答案 有 用 性 排 
序 方法 的 意义 ,本 研究 选择 人 工 排序 的 方法 辅助 进行 
实验 结果 的 对 比分 析 。 根 据 百 度 指数 人 群 画像 2021 
年 2 月 26 日 到 2021 年 3 月 28 日 的 分 析 结 果 , 携 程 的 
日 户 群 年 龄 主要 分 布 在 20 - 39 岁 之 间 。 因 此 ,笔者 随 
机 选取 20 名 此 年 龄 段 且 拥 有 丰富 的 携程 使 用 经 验 的 
用 户 ,将 答案 顺序 随机 打 乱 后 ,要 求实 验 参与 者 阅读 每 
个 问题 及 答案 并 从 自我 感知 的 角度 出 发 ,基于 每 条 答 
案 的 内 容 丰 富 度 ` 个 人 信息 需求 的 满足 程度 .答案 的 有 
用 程度 等 方面 人 工 为 答案 排序 。 排 序 结果 的 答案 重合 
率 计 算 ,不 仅 可 以 得 出 排序 方法 之 间 的 优异 ,还 可 以 得 
出 答案 有 用 性 排序 结果 与 最 佳 排序 结果 的 接近 程度 。 
因此 ,笔者 将 20 份 人 工 排序 结果 进行 对 比 整 合 后 , 提 
取 本 研究 答案 排序 结果 与 人 工 排序 结果 的 前 10 条 答 
案 ,针对 前 10 条 答案 计算 出 答案 的 重合 率 , 具 体 结果 
见 表 6。 
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表 4 答案 有 用 性 的 排序 结果 


性 排序 有 用 性 ”携程 原 
数值 排序 始 排 序 
西湖 最 大 的 特点 就 是 景 多 ,所 以 玩法 也 特别 多 ,不 同 的 人 可 以 玩 出 不 同 的 感觉 ,从 1 天 到 3 天 ,都 能 有 不 一 样 的 游玩 体验 。 0.295 959 1 4 
具体 的 可 以 看 看 高 德 地 图 里 的 “杭州 西湖 一 键 智慧 游 ,里面 有 很 多 路 线 的 推荐 ,从 根据 时 间 的 1 -3 天 路 线 ,还 有 根据 主题 

的 茶 文化 路 线 ,浪漫 路 线 . 骑 行路 线 等 等 。 像 一 天 的 话 可 以 选择 "精华 一 日 游 路 线 ” ,西湖 著名 的 几 个 景点 都 包含 在 内 了 , 飞 

来 峰 、 灵 隐 寺 、 岳 王 庙 、 苏 堤 \ 三 潭 印 月 \ 白 堤 、 音 乐 喷 泉 , 有 山 有 水 , 先 去 飞 来 峰 看 看 石窟 ,出 来 去 对 面 灵 隐 和 寺 , 然 后 到 西湖 周 

边 参观 下 岳 王 庙 、 坐 船 到 湖 里 看 看 三 潭 印 月 这 些 , 等 到 了 晚上 去 看 看 喷泉 和 夜景 ,一 共 23.4 公里 的 行程 。 如 果 只 想 在 西湖 

边 上 转 转 ,可 以 选择 “ 醉 美 十 景 "路 线 , 看 看 断 桥 残 雪 \ 平 湖 秋月 、 曲 院 风 荷 . 花 港 观 鱼 、 雷 峰 夕 照 这 些 最 经 典 的 西湖 十 景 , 走 
累 了 还 可 以 选择 坐 观 光 的 电瓶 车 。 如 果 喜 欢 骑 行 ,还 可 以 选择 " 沿 湖 骑 行 "路 线 , 边 骑 车 边 看 景 ,也 是 别有一番 风味 的 。 另 
外 特别 方便 的 一 点 是 ,每 个 景点 都 会 有 语音 解说 ,都 不 用 请 导游 了 ,而且 还 标注 了 景点 之 间 直 接 可 以 乘坐 的 公交 车 或 者 步行 
导航 的 路 线 ,真是 有 了 这 个 就 可 以 说 走 就 走 
以 后 去 杭州 可 以 这 样 走 : 西 湖 十 景 ,是 西湖 上 十 处 特色 风景 ,有 苏 坦 春 晓 、 曲 院 风 荷 .平湖 秋月 、 断 桥 残 雪 、 柳 浪 闻 营 、 花 港 观 ”0.292 931 2 24 
鱼雷 峰 夕 照 \ 双 峰 插 云南 屏 晚 钟 、 三 漂 印 月 ,一 处 比 一 处 美 ,就 这 样 , 走 着 .看 着 ,这 样 就 挺 好 

动车 杭州 下 来 ,如 果 是 城 站 , 那 直 接 游 2 路 到 雷 峰 塔 ,浏览 完 后 顺路 走 到 苏 堤 ,然后 从 苏 堤 南端 往 北 走 , 苏 堤 比较 长 ,全程 2， 0.291 922 3 35 
6km 还 是 3.6km 忘记 了 ,以 前 每 次 都 是 从 头 到 尾 暴走 ,现在 基本 上 是 走 一 段 拍 拍照 ,然后 就 往 回 走 ,你 可 以 走 一 段 拍 拍 看 

看 , 走 到 花 港 观 鱼 这 里 ,然后 做 电瓶 车 继续 往 北 ,到 了 北山 路 这 里 右 转 , 沿 着 白山 路 一 直 走 ,经 过 白 堤 可 以 到 达 断 桥 , 断 桥 附 

近 可 以 坐 公 交 去 毛 家 塌 和 龙井 ,午饭 可 以 在 那里 解决 ,有 灶 丰 年 间 龙 井 店 , 和 和 弄堂 里 茅 家 埠 店 哦 ,都 是 杭州 特色 性 价 比比 较 

开 副 热门 矢 F 叹 。 吃 完 后 ,可 以 坐 公交 去 湖滨 商业 街 , 这 样 就 节省 时 间 和 体力 了 , 忘 亲 采 纳 哦 


有 
答案 内 容 


由 


二 


vs 


西湖 旅游 应 该 是 一 种 休闲 旅游 ,如 果 只 是 走马 观 花 ,到 此 一 游 的 话 , 建 议 选择 一 两 个 景点 看 看 就 可 以 了 。 我 在 西湖 游 了 两 0.288 416 4 6 
不 5 但 是 也 仅仅 沿 西 湖 转 了 两 圈 而 已 , 连 九 溪 十 八 润 和 灵 隐 和 寺 都 没 来 得 及 去 。 如 果 想 对 西湖 各 个 景点 有 个 大 至 的 了 解 ,可 以 


电瓶 车 环 游 一 圈 ,40 元 一 人 ,要 游 一 个 多 小 时 ;还 可 以 租 辆 单车 , 骑 行 一 圈 。 西 湖 沿线 骑 自 行车 还 是 很 舒服 的 ,特别 是 

是 和 白 坦 ,特别 适合 跑步 和 骑 行 。 晚 餐 可 以 在 柳 浪 闻 营 附近 的 莲 遇 餐厅 用 餐 ,是 杭 帮 菜 , 如 果 美 团 的 话 要 提前 一 天 预约 。 

环境 非常 好 ,价格 也 不 算 太 贵 。 那 里 还 可 以 住宿 ,但 是 不 便宜 。 晚 上 可 以 看 看 印象 西湖 。 时 间 充裕 的 话 可 以 用 一 天 时 

走 九 溪 十 八 润 和 灵 隐 寺 , 还 可 以 在 灵 隐 寺 附 近 的 安曼 喝 喝 茶 , 住 不 起 安曼 的 酒店 ,也 可 以 享受 一 下 安曼 的 环境 啊 ! 如 果 

去 游 西湖 的 话 ,建议 住 西 湖 附近 。 因 为 杭州 的 公交 车 很 挤 ,出 租车 基本 打 不 到 

际遇 - 10.30: 游 览 灵 隐 寺 飞 来 峰 景区 , 寻 双 峰 插 云 10:30 - 12 :30 : 游 朋 环 游 西湖 ,在 湖 中 观 苏 堤 春晓 ,平湖 秋月 . 断 桥 残 雪 、 0.285104 5 17 

全 家 疗 区 , 登 三 潭 印 月 岛 12:30 -13:30: 午 餐 13:30 -14:30 看 曲 院 风 荷 14:30 - 15 :30 杨 坦 景 行 ( 杨 公 坦 一 西湖 新 十 景 之 

CE 在 行程 附近 ,同样 值得 一 去 )15:30: - 16:30 花 港 观 鱼 16:30 - 18:00 : 听 南 屏 晚 钟 , 观 雷 峰 儿 照 tips: 雷 峰 夕照 步行 380 

起 才 疹 寺 站 乘坐 -3157344 路 ,30 分 钟 左右 的 车 程 到 胡雪岩 故居 公交 车 站 ,步行 600 米 ,开始 你 的 河 坊 街 夜 游 ,小 吃 应 有 

8 革 可 在 此 解决 晚餐 (本 是 三 天 两 夜 杭州 攻略 的 ) 

ON 
表 5 携程 问答 的 排序 结果 


pr 有 用 性 排序 有 用 性 ”携程 原 
做 2 六 
>< 管 案 内 容 数值 。 排序 。 始 排序 
加 ree 一 天 人 和. 和 0 这. 古城. 于 ? 冯 0.281339 6 1 
话 江 ,浏览 完 后 顺路 走 到 苏 迪 ,然后 从 苏 油 南端 往 北 走 , 苏 烛 比较 长 ,全 程 2. 6km 还 是 3. 6km 忘记 了 ,以 前 每 次 都 是 从 头 有 
走 ,现在 基本 上 是 走 一 段 拍 拍 照 ,然后 就 往 回 走 , 你 可 以 走 一段 拍 拍 看 看 , 走 到 花 港 观 鱼 这 里 ,然后 做 电瓶 车 继续 往 北 ， 


北山 路 这 里 右 转 , 沿 着 扳 山 路 一 直 走 ,经 过 白 旭 可 以 到 达 断 桥 , 断 桥 附 近 可 以 坐 公交 去 毛 家 埠 和 龙井 ,午饭 可 以 在 那里 
次 ,有 灶 丰 年 间 龙 井 店 ,和 弄堂 里 茅 家 埠 店 哦 ,都 是 杭州 特色 性 价 比 比较 高 的 热门 餐厅 哦 。 吃 完 后 ,可 以 坐 公 交 去 湖滨 商 


业 街 , 这 样 感觉 不 会 有 暴走 的 感觉 哦 , 双 脚 第 二 天 还 可 以 继续 用 ,哈哈 。 和 硕 望 对 你 有 帮 有 

我 是 携程 当地 向 导 , 您 好 ! 杭州 两 天 ,第 一 天 西湖 景区 灵 隐 ,第 二 天 西溪 湿地 宋 城 ,第 三 天 乌镇 (西塘 三 个 小 时 就 诞 完了 , 白 0.278 449 7 2 
天 好 玩 , 夜 景 没 乌镇 好 ,建议 去 最 有 代表 性 的 古镇 乌镇 ,乌镇 分 东 栅 西 栅 两 个 景区 , 东 栅 主要 看 老 房 子 , 西 栅 主 景区 夜景 非 党 

好 ,建议 买 连 票 150 ,分 开 买 会 贵 70 块 ) 第 四 天 苏州 ,苏州 就 是 看 园林 ,看 苏州 文化 ,主要 拙 政 园 ,其 他 的 几 个 园林 去 不 去 都 

无 所 谓 了 ,大 同 小 异 ,希望 能 帮 到 你 ,谢谢 

西湖 一 天 怎么 游 都 合理 0. 160 240 56 3 
西湖 最 大 的 特点 就 是 景 多 ,所 以 玩法 也 特别 多 ,不 同 的 人 可 以 玩 出 不 同 的 感觉 ,从 1 天 到 3 天 ,都 能 有 不 一 样 的 游玩 体验 。 0.295 798 4 
具体 的 可 以 看 看 高 德 地 图 里 的 “杭州 西湖 一 键 智慧 游 ” ,里面 有 很 多 路 线 的 推荐 ,从 根据 时 间 的 1 -3 天 路 线 ,还 有 根据 主题 


的 茶 文 化 路 线 ,浪漫 路 线 . 骑 行 路 线 等 等 。 像 一 天 的 话 可 以 选择 "精华 一 日 游 路 线 ” ,西湖 著名 的 几 个 景点 都 包含 在 内 了 , 飞 
来 峰 、 灵 隐 寺 、 岳 王 庙 、 苏 堤 \ 三 潭 印 月 、 白 堤 \、 音 乐 喷 泉 , 有 山 有 水 , 先 去 飞 来 峰 看 看 石窟 ,出 来 去 对 面 灵 隐 和 寺 , 然 后 到 西湖 周 
边 参 观 下 岳 王 庙 、 坐 船 到 湖 里 看 看 三 漂 印 月 这 些 , 等 到 了 晚上 去 看 看 喷泉 和 夜景 ,一 共 23.4 公里 的 行程 。 如 果 只 想 在 西湖 
边 上 转 转 ,可 以 选择 “ 醇 美 十 景 "路 线 , 看 看 断 桥 残雪 ,平湖 秋月 . 曲 院 风 荷 、 花 港 观 鱼雷 峰 夕 照 这 些 最 经 典 的 西湖 十 景 , 走 
累 了 还 可 以 选择 坐 观 光 的 电瓶 车 。 如 果 喜 欢 骑 行 ,还 可 以 选择 " 沿 湖 骑 行 "路 线 , 边 骑 车 边 看 景 ,也 是 别有一番 风味 的 。 另 
外 特别 方便 的 一 点 是 ,每 个 景点 都 会 有 语音 解说 ,都 不 用 请 导游 了 ,而且 还 标注 了 景点 之 间 直 接 可 以 乘坐 的 公交 车 或 者 步行 
导航 的 路 线 ,真是 有 了 这 个 就 可 以 说 走 就 走 
第 一 站 断 桥 步 行 约 20 分 钟 到 楼 外 ,然后 曲 院 风 荷 , 苏 堤 春晓 , 花 港 观 鱼 ,午饭 去 龙井 山 吃 农家 菜 , 喝 上 一 杯 龙井 茶 , 看 看 龙 0.276 841 9 5 
茶园 再 拍 拍 相片 ,太阳 快 落 山 的 时 候 雷 锋 塔 ,看 雷 峰 儿 照 ,晚饭 杭州 酒家 淮 尝 正宗 的 杭州 菜 ,晚饭 后 步行 三 分 钟 就 能 到 西 济 
的 湖滨 路 ,看 看 音乐 喷泉 及 西湖 夜景 ,最 后 走 走 杭州 唯一 的 仿古 建筑 河 坊 街 .南宋 御 街 


b= 
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表 6 人 工 排序 与 原始 排序 的 答案 重合 率 对 比分 析 
目的 地 ”长 沙 杭州 青岛 青海 上 海 三 亚 武汉 
本 文 57% 74.5% 773% 63% 54% 47.5% 58.5% 


携程 20% 50% 55% 35% 50% 55% 45% 


表 6 表明 在 以 长 沙 、 杭 州 .青岛 青海、 上海、 武 汉 
为 目的 地 的 问答 对 中 ,答案 有 用 性 排序 结果 与 人 工 排 
序 结果 的 重复 率 高 于 原 携程 排序 ;在 以 三 亚 为 目的 地 
的 问答 对 中 答案 有 用 性 排序 结果 与 人 工 排序 结果 的 重 
复 率 低 于 原 携程 排序 。 据 此 可 得 出 ,整体 上 本 研究 提 
出 答案 有 用 性 排序 方法 与 人 工 排 序 更 相似 ,更 能 满足 
用 户 个 性 化 的 信息 需求 。 


5 结语 


一 笔者 以 携程 问答 社区 为 例 ,从 用 户 需 求 和 答案 的 
有 于 性 的 角度 出 发 ,在 前 人 研究 的 基础 上 综合 考虑 管 
征 、 回 答 者 特征 和 答案 的 时 效 性 构建 答案 排序 指 
标 体 系 , 然 后 对 各 指标 进行 量化 ,利用 信 权 法 客观 分 析 
答案 内 部 所 含有 的 信息 炉 值 ,确定 各 指标 的 权重 。 然 
后 三 合 灰色 关联 分 析 法 计算 答案 的 加 权 灰 色 关联 度 ， 
省 通过 Word2vec 计算 出 问答 对 之 间 的 文本 相似 度 , 最 
唇 线 合 权重 计算 出 每 条 答案 的 最 终 得 分 ,获得 答案 的 
结果 。 实 验 结果 表明 ,将 本 研究 与 携程 问答 社区 
现 竹 的 答案 排序 结果 相 比 ,本 研究 排序 靠 前 的 答案 ,一 
般 多 为 图 文 结合 .答案 内 容 丰 富 、 用 户 点 先 数 高 .用 户 
评 殉 的 热度 高 .情感 分 析 值 高 .属性 特征 词 多 。 原 有 排 
序 感 考虑 用 户 点 赞 数 或 用 户 回答 时 间 ,本 研究 考虑 到 
的 师 户 需求 维度 更 多 ,更 能 满足 用 户 的 个 性 化 信息 需 
求 GE 然而 ,本 研究 也 存在 一 定 的 不 足 。 对 于 各 种 类 型 
的 但 会 化 问答 社区 来 说 ,本 文 实验 选取 的 数据 规模 也 
较为 有 限 , 且 仅仅 限制 在 携程 问答 这 单一 的 在 线 问答 
社区 。 下 一 步 ,笔者 将 扩大 社会 化 问答 社区 的 研究 范 
围 及 实验 数据 规模 。 
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Absiract: | Purpose/ significance | In order to solve the diversified information needs of users and the problem 


of redundant and overloaded answers in the social Q&A community, this paper proposes an answer usefulness ranking 


method oriented to users ”personalized needs ,assists users to efficiently filter and obtain useful answer knowledge. 


| Method/ process | First, through literature research and expert consultation, an answer usefulness evaluation index 


system was constructed from the three dimensions of answer characteristics, answerer characteristics and answer time- 


liness; Then, it integrated the user’ s personalized needs from the semantic level, designed an answer usefulness 


ranking method that combined WGRA and Word2vec, and realized the answer ranking oriented to user needs. | Re- 


sult/ conclusion | Through comparative analysis of experimental results, it is found that compared with traditional 


ranking methods based on “likes” and “answer time” , the answer usefulness ranking method designed in this paper 


has higher user satisfaction and is more able to satisfy users ”personalized knowledge demands. 
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